數據框
在Pandas 中的資料即通常是多為表,稱為DataFrame
Pandas DataFrame 是一種二維資料結構,如二維數組或具有行和列的表格
如果說 Series 是一列,那DataFrame 就是整個表格
用兩個Series,建立成一個DataFrame
import pandas as pd
a = {
"a" : [200, 220, 300],
"b" : [20, 30, 304]
}
myvar = pd.DataFrame(a)
print(myvar)
輸出結果
(標籤) | a | b |
---|---|---|
0 | 200 | 20 |
1 | 220 | 30 |
2 | 300 | 304 |
從上面的結果可以看出來,DataFrame就像一個有行有列的表格
可以用此回傳一個或多個指定行
用法是
import pandas as pd
a = {
"a" : [200, 220, 300],
"b" : [20, 30, 304]
}
myvar = pd.DataFrame(a)
print(myvar.loc[0])
一樣可以用index更改列表名稱
如果將a用pd轉換成DataFrame,所以將myvar加上指定行loc[0]
最後就只會輸出"a" 跟 "b" 的第一行
輸出結果
a | 200 |
b | 20 |
一般用於儲存大數據集的簡單方法是使用 CSV 檔案
csv 檔案包含純文本,是一種眾所周知的格式,包括 Pandas 在內的所有人都可以閱讀,在我們的範例中,我們將使用名為「data.csv」的 CSV 檔案,在嘗試這格檔案時,記得將這個檔案打開
例子:
將 CSV 載入到 DataFrame 中:
1.
2.
import pandas as pd
a = pd.read_csv('data.csv')
print(a.to_string())
import pandas as pd
a = pd.read_csv('data.csv')
print(a)
pd.options.display.max_rows
import pandas as pd
print(pd.options.display.max_rows)
#輸出 60
數字是 60,這表示如果 DataFrame 包含超過 60 行,
則該print(df)語句將只傳回標題以及前 5 行和最後 5 行
可以使用相同的語句來變更最大行數。
import pandas as pd
pd.options.display.max_rows = 9999
df = pd.read_csv('data.csv')
print(df)